智算弱电学习系统
课程概览Agent 生态与前沿AI Agent 核心概念与架构

AI Agent 核心概念与架构

如果说 ChatGPT 让大模型学会了"说话",那 Agent 就是让大模型学会了"做事"。Agent 不只是回答问题——它能思考、规划、使用工具、执行动作,像一个真正的数字员工。理解 Agent 的核心架构,是 AI 产品经理把握下一波 AI 产品浪潮的必修课。


1. Agent 到底是什么

1.1 一句话定义

AI Agent = LLM + 规划能力 + 工具使用 + 记忆 + 自主执行

普通 Chatbot 是「你问我答」,Agent 是「你给目标,我自己想办法完成」。

普通 Chatbot:
用户:"帮我查一下北京明天的天气" → 模型:"我无法访问实时数据..."

Agent:
用户:"帮我查一下北京明天的天气"
→ 思考:需要调用天气 API
→ 行动:调用 get_weather("北京", "明天")
→ 观察:返回"晴,15-25°C"
→ 回答:"北京明天晴天,15-25°C,适合户外活动。"

1.2 Agent vs Chatbot vs Copilot

维度ChatbotCopilotAgent
交互模式你问我答我建议你确认你定目标我执行
工具使用有限丰富(搜索、API、代码执行等)
自主决策
规划能力有(任务拆解、多步执行)
代表产品ChatGPT 基础版GitHub CopilotDevin、Claude Code、AutoGPT

关键判断标准:如果用户说完一句话后,系统需要自主执行多个步骤才能完成任务——那它就是 Agent。


2. Agent 四大核心组件

2.1 规划(Planning)

Agent 收到任务后的第一步:把复杂任务拆解为可执行的子任务。

任务分解示例

用户目标:"帮我分析竞品 Notion AI 的产品策略"

Agent 规划:
├── Step 1: 搜索 Notion AI 最新功能更新
├── Step 2: 搜索 Notion AI 定价策略变化
├── Step 3: 搜索用户对 Notion AI 的评价
├── Step 4: 整合信息,撰写分析报告
└── Step 5: 生成对比表格和建议

主流规划方法

方法原理优点缺点
ReAct思考→行动→观察,循环执行简单可靠每步都要推理,较慢
Plan-and-Execute先生成完整计划,再逐步执行效率高计划可能需要动态调整
Tree of Thoughts探索多条路径,选最优推理质量高计算成本高

2.2 记忆(Memory)

Agent 需要记住之前发生了什么,才能做出连贯的决策。

短期记忆(Working Memory):当前对话的上下文,存在 Context Window 中。

长期记忆(Long-term Memory):跨会话的信息,通常存储在向量数据库中。

短期记忆:用户刚才让我查了 Notion AI 的定价
长期记忆:上周用户提过他们的产品预算是 10 万/月
→ Agent 可以自动对比 Notion AI 的价格是否在预算内

2.3 工具(Tools)

工具是 Agent 与外部世界交互的接口。没有工具的 Agent 只能"想",有了工具才能"做"。

常见工具类型

工具类型示例对应能力
搜索Google Search、Bing API获取实时信息
代码执行Python 沙箱、Bash Shell数据计算、自动化
API 调用Slack、GitHub、数据库操作外部系统
文件操作读写文件、PDF 解析处理文档
浏览器网页浏览、截图访问网页内容

工具调用流程(Function Calling):

1. 模型分析用户需求
2. 模型决定需要调用哪个工具,生成参数
3. 系统执行工具调用
4. 将工具返回结果注入上下文
5. 模型基于结果继续推理或生成回答

2.4 行动(Action)

Agent 根据规划和工具调用结果,执行具体动作并产生真实影响。

关键设计问题:哪些行动需要人类确认?

低风险(自动执行):搜索信息、读取文件、数据分析
中风险(建议确认):发送消息、修改文档
高风险(必须确认):删除数据、金融交易、发布内容

3. ReAct 模式详解

ReAct(Reasoning + Acting)是目前最主流的 Agent 执行模式。

3.1 执行循环

ReAct 循环:
Thought(思考)→ Action(行动)→ Observation(观察)→ 重复直到任务完成

示例:查找某公司最新融资信息

Thought: 我需要查找这家公司的最新融资信息
Action: search("公司名 + 最新融资")
Observation: 搜索结果显示 2024 年 3 月完成 B 轮融资 5000 万美元

Thought: 我找到了融资信息,但还需要确认投资方
Action: search("公司名 + B轮 + 投资方")
Observation: 由红杉资本领投,老股东跟投

Thought: 信息已经足够完整,可以回答用户了
Answer: 该公司于 2024 年 3 月完成 B 轮融资,金额 5000 万美元,由红杉资本领投。

3.2 产品设计要点

  • 思考过程是否展示给用户? 展示可以增强信任感,但会增加视觉复杂度
  • 工具调用失败怎么办? 必须设计重试和降级策略
  • 循环次数上限? 防止 Agent 陷入无限循环(通常设 10-15 次上限)

4. 单 Agent vs 多 Agent

4.1 单 Agent

一个 Agent 处理所有任务。适合简单场景。

优点:架构简单,上下文共享自然 缺点:能力天花板低,复杂任务容易混乱

4.2 多 Agent(Agent Swarm / Multi-Agent)

多个专业化的 Agent 协作完成复杂任务。

多 Agent 协作示例:AI 产品需求评审

📋 PM Agent(产品经理):接收需求,拆解为技术问题
🔧 Tech Agent(技术顾问):评估技术可行性和成本
📊 Data Agent(数据分析师):分析相关数据指标
💰 Biz Agent(商业分析师):评估商业价值和 ROI
📋 PM Agent:汇总各方输入,生成评审报告

主流多 Agent 框架

框架特点适合场景
CrewAI角色定义 + 任务流程团队协作模拟
AutoGen (Microsoft)对话驱动的多 Agent研究探索
LangGraph状态图驱动复杂工作流
Claude Code Teams原生多 Agent代码项目协作

4.3 选型建议

决策树:
├── 任务简单,步骤 < 5 → 单 Agent
├── 任务复杂但领域单一 → 单 Agent + 多工具
└── 任务跨领域、需要多种专业能力 → 多 Agent

5. Agent 产品案例分析

5.1 Devin(软件工程 Agent)

  • 定位:自主完成编程任务的 AI 软件工程师
  • 架构:规划 + 代码编辑器 + 终端 + 浏览器
  • 产品洞察:不是 Copilot(建议代码),而是 Agent(独立完成任务)
  • PM 启发:Agent 产品的关键不是"能做什么",而是"做错了用户怎么纠正"

5.2 Claude Code

  • 定位:终端中的 AI 编程助手,能读写文件、执行命令
  • Skills 系统:用户可以安装/创建自定义能力模块
  • Team 模式:多个 Agent 协作完成复杂项目
  • PM 启发:Agent 的可扩展性(Skills/插件)是生态护城河

5.3 Perplexity

  • 定位:AI 搜索引擎
  • Agent 特征:自动搜索多个来源 → 综合分析 → 生成引用答案
  • PM 启发:Agent 不一定是"全自动"——搜索+综合就已经是 Agent 模式

6. AI PM 需要关注的 Agent 产品设计要点

6.1 可观测性

用户需要理解 Agent 在做什么。设计上要展示:

  • 当前步骤和进度
  • 工具调用过程
  • 中间结果

6.2 可控性

用户需要随时能干预。提供:

  • 暂停/继续
  • 修改计划
  • 撤销操作

6.3 可预测性

Agent 的行为应该在用户预期范围内:

  • 执行前展示计划让用户确认
  • 高风险操作强制人工审批
  • 设置资源消耗上限(Token、时间、API 调用次数)

核心要点

  1. Agent = LLM + 规划 + 工具 + 记忆 + 执行,缺一不可
  2. ReAct 是主流执行模式:思考→行动→观察的循环
  3. 工具是 Agent 的双手:没有工具调用能力的 Agent 不是真正的 Agent
  4. 多 Agent 适合复杂跨领域任务,但增加了协调成本
  5. Agent 产品设计的核心矛盾:自主性 vs 可控性——给用户安全感是第一优先级